Objectifs d'apprentissage
- Identifier les goulets d'étranglement architecturaux à l'aide d'Omniperf et de ROCProfiler.
- Optimiser les modèles d'accès mémoire pour maximiser le débit HBM2e/HBM3.
- Comprendre la planification des ondelettes et l'occupation sur l'unité de calcul CDNA.
- Mettre en œuvre des optimisations au niveau des instructions pour les noyaux vectoriels et matriciels.